AI资讯新闻榜单内容搜索-scaling la

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: scaling la
Llama架构比不上GPT2?神奇token提升10倍记忆?

Llama架构比不上GPT2?神奇token提升10倍记忆?

Llama架构比不上GPT2?神奇token提升10倍记忆?

近日,朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验(50,000 条任务,总计 4,200,000 GPU 小时)总结了 12 条定律,为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

来自主题: AI资讯
4222 点击    2024-04-10 19:11
Q1 AGI 融资万字盘点:单笔最高30亿、PMF海外已跑通、资本军备竞赛已开启

Q1 AGI 融资万字盘点:单笔最高30亿、PMF海外已跑通、资本军备竞赛已开启

Q1 AGI 融资万字盘点:单笔最高30亿、PMF海外已跑通、资本军备竞赛已开启

在这个风起云涌的 AI 时代,一场前所未有的资本军备竞赛正在火热上演。算力、算法、数据,这些被视为 AI 领域的三大基石,正成为各大公司争夺的焦点。然而,在这场看似技术驱动的竞赛背后,低成本资金的获取却成为了决定胜负的隐形推手。

来自主题: AI资讯
6013 点击    2024-04-08 09:20
国产黑马一年肝出万亿参数MoE!霸榜多模态,剑指AGI

国产黑马一年肝出万亿参数MoE!霸榜多模态,剑指AGI

国产黑马一年肝出万亿参数MoE!霸榜多模态,剑指AGI

LLM战场的新玩家,一出手就是王炸!信仰Scaling Law的阶跃星辰,一口气带来了Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版。而阶跃星辰之旅,终点就是AGI。

来自主题: AI资讯
3787 点击    2024-04-01 18:50
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。

来自主题: AI技术研报
8231 点击    2024-04-01 15:45
再谈复现 Sora:被仰望与被遗忘的

再谈复现 Sora:被仰望与被遗忘的

再谈复现 Sora:被仰望与被遗忘的

2月16日,OpenAI 发布了视频生成领域的重磅模型 —— Sora。Sora 对 Scaling Law 的信仰及其突破性的技术创新,使它持续保持领先地位。同时,也再次证明了“大力出奇迹”依然适用于文生视频领域。

来自主题: AI资讯
9908 点击    2024-03-27 11:09
如何从零开始训练大模型(minicpm分享&讨论)

如何从零开始训练大模型(minicpm分享&讨论)

如何从零开始训练大模型(minicpm分享&讨论)

根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。

来自主题: AI技术研报
2434 点击    2024-03-19 15:55
朱啸虎讲了一个中国现实主义AIGC故事

朱啸虎讲了一个中国现实主义AIGC故事

朱啸虎讲了一个中国现实主义AIGC故事

中国科技界针对大模型的态度已分裂成两股阵营。一股是技术信仰派,他们大多技术出身,认为应该像OpenAI一样信仰AGI、信仰scaling law(规模定律),

来自主题: AI资讯
4077 点击    2024-03-06 15:06
AI规模法则:大力何以出奇迹?

AI规模法则:大力何以出奇迹?

AI规模法则:大力何以出奇迹?

AI 研究走过的最大弯路,就是过于重视人类既有经验和知识。

来自主题: AI资讯
3999 点击    2024-03-06 10:56
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。

来自主题: AI技术研报
2669 点击    2024-02-27 14:00